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一 种 改进 K-means 聚 类 的 FCMM 算法 
杨 明 极 ,， 马 池 , 王 娅 , 张 竹 


(哈尔滨 理工 大 学 测控 技术 与 通信 工程 学 院 , 哈尔滨 150080) 


摘 要 : 针对 KK-means 算法 易 受 初始 聚 类 中 心 影响 而 陷入 局 部 最 优 的 问题 ， 提 出 一 种 基于 萤火虫 智能 优化 和 混沌 理论 
的 FCMM 算法 。 首 先 利 用 最 大 最 小 距离 算法 确定 聚 类 类 别 值 K 和 初始 聚 类 中 心 位 置 ; 然后 以 各 聚 类 中 心 为 基准 点 ， 
利用 Tent 映射 构建 混沌 空间 ， 通 过 混沌 搜索 更 新 聚 类 中 心 ， 以 降低 初始 聚 类 中 心 过 于 临近 的 影响 ， 并 改善 算法 易 陷 入 
局 部 最 优 的 问题 。 仿 真 结果 表明 ，EFCMM 算法 的 平均 聚 类 精度 相 较 于 经 典 KK-means 算法 和 FA 算法 分 别提 高 了 7.51% 
和 2.2%， 成 功 避 免 算 法 陷入 局 部 最 优 解 ， 提 高 了 划分 初始 数据 集 的 效率 和 寻 优 精度 。 
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Algorithm named FCMM to improve K-means clustering algorithm 


Yang Mingji, Ma Chi, Wang Ya, Zhang Zhu 
(School of Measure-control Technology & Communication Engineering, Harbin University of Science & Technology, Harbin 
150080, China) 


Abstract: In order to solve the problem that the K-means algorithm gets affected by the initial cluster centers easily, this paper 
proposes FCMM algorithm based on firefly intelligence optimization and chaos theory. It uses the max-min distance clustering 
algorithm to calculate the number K of cluster center and determine the location of initial cluster centers. To overcome the 
problem that initial clustering centers are too close to each other and traditional algorithm falls into local optima easily, it uses 
Tent mapping to construct a chaotic space with each cluster center as the datum point, and then updates cluster centers through 
chaotic search. The experimental results show that the average clustering accuracy of the FCMM algorithm than that of the 


classical K-means algorithm and the FA algorithm is respectively 7.51% and 2.2% higher, the FCMM algorithm avoids falling 


into the local optimal solution successfully, and improves the efficiency and precision of the initial data set. 


= Key words: K-means clustering; firefly; maximum and minimum distance; Tent mapping; chaotic search 


解决 各 种 优化 问题 ， 并 能 够 成 功 应 用 到 聚 类 问题 中 提高 算法 的 
准确 性 ,受到 了 很 多 学 者 的 关注 和 研究 。 针 对 K-means 算法 存 
伴随 大 数据 时 代 的 到 来 ， 数 据 挖掘 领域 得 到 日 新 月 异 的 发 在 过 度 依赖 初始 聚 类 中 心 而 陷入 局 部 最 优 的 问题 ， 潘 晓 英 等 人 
展 。 聚 类 分 析 作 为 数据 挖掘 和 数据 分 析 的 经 典 方法 中， 在 模式 提出 了 基于 自 适 应 步 长 的 草 火 虫 划分 聚 类 算法 ， 采 用 了 自 适 应 
识别 ， 室 内 定位 ， 统 计 学 等 领域 拥有 良好 的 发 展 前 景 。 随 着 社 步 长 代 蔡 原 有 的 固定 步 长 中 。 王 冲 等 人 提出 一 种 新 的 小 生境 萤 
会 发 展 对 数据 精度 要 求 的 不 断 提高 ， 如 何 提 高 算法 的 聚 类 精度 火 虫 划分 聚 类 算法 以 增加 种 群 多 样 性 外 。 陈 小 雪 等 人 利用 莉 火 
是 广大 学 者 一 直 以 来 的 研究 热点 口 。 虫 优化 算法 全 局 搜索 能 力 强 、 易 于 实现 的 优势 ， 通 过 引用 一 种 
鉴于 传统 K-means 聚 类 算法 存在 易 受 初始 聚 类 中 心 和 异常 加 权 的 欧 氏 距离 对 K-means 算法 的 初始 聚 类 中 心 进行 优化 号。 
数据 影响 的 缺陷 咎 ， 算 法 开始 研究 集中 于 利用 特征 关联 度 对 传 上述 基于 荤 火 虫 优化 的 K-means 算法 在 给 定 聚 类 中 心 后 的 优化 
统 K-means 算法 的 初始 聚 类 中 心 进行 优化 内 和 基于 自 适 应 权重 过 程 方面 改善 了 聚 类 效果 ， 但 是 都 没有 明确 给 出 确定 聚 类 中 心 
的 聚 类 算法 铝 。 随 着 智能 优化 算法 的 提出 和 发 展 ， 莉 火 虫 算法 数值 K 的 方法 ， 同 时 ， 基 于 自 适应 步 长 的 改进 算法 在 寻 优 后 期 
FA(Firefly Algorithm) 作 为 一 种 源 于 生物 界 的 随机 优化 算法 ， 因 设置 的 步 长 较 小 ， 易 导致 收敛 速度 较 慢 ， 且 数据 集 局 限于 某 个 
其 具有 操作 简单 、 易 于 并 行 处 理 、 鲁 棒 性 强 等 特点 外, 可 以 有 效 聚 类 中 心 无 法 跳出 ， 从 而 陷入 局 部 最 优 解 ， 降 低 聚 类 精度 。 
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针对 以 上 问题 ， 本 文 提出 一 种 基于 混沌 理论 和 最 大 最 小 距 


离 算法 的 动态 种 群 萤火虫 算法 (dynamic Firefly algorithm based 
on Chaos theory and Max-Min distance algorithm, FCMM)。 该 算 
法 首先 利用 最 大 最 小 距离 算法 确定 聚 类 中 心 数 值 玉 的 大 小 和 初 
始 聚 类 中 心 位 置 ,再 用 裔 历 性 均匀 、 达 代 速度 快 的 Tent 混沌 映 
射 构建 以 初始 聚 类 中 心 为 基准 点 的 混沌 搜索 空间 ， 并 通过 Tent 
混沌 搜索 的 形式 优化 初始 聚 类 中 心 ， 促 使 算法 跳出 局 部 最 优 ， 

且 可 以 获得 较 快 收敛 速度 ， 最 后 利用 智能 萤火虫 优化 算法 的 位 
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定义 4 位 置 更 新 公式 为 
X(t+1)=x(1) + P(x,(t)—%(t)) + ae, (5) 


By 


其 中 : a 表示 初始 化 的 步 长 因子 ; s 表示 服从 高 斯 分 布 的 随机 
Ts 


2 K-means 聚 类 算法 的 优化 


对 于 传统 K-means 算法 , 给 定 初始 聚 类 中 心 后 , 可 以 利用 
董 火 虫 算法 的 随机 性 和 全 局 搜索 能 力 对 除去 聚 类 中 心 以 外 的 数 


置 更 新 公式 划分 非 聚 类 中 心 样本 点 所 属 的 聚 类 类 别 ， 完 成 聚 类 


过 程 。 
1 ”基本 算法 
1.1 K-means 聚 类 算法 

K-means 的 核心 功能 是 将 给 定 的 数据 集 壬 ={X,X ,和 } 
划分 成 K 个 子 集 {C,C,,.…,C,} 经 典 K-means 聚 类 算法 思想 : 
从 数据 集 X 中 ea K 个 对 象 ， 分 别 作为 K 个 类 别 的 初始 


聚 类 中 心 C,(j=1,2,.…,k) ; 计算 剩余 每 个 对 象 XX,(i=1,2,.……,n) 与 
各 个 聚 类 中 心 的 欧 i 并 将 其 划分 到 距离 最 近 的 子 类 C, 中 ; 


然后 重新 计算 每 个 子 类 中 所 有 对 象 的 平均 值 ， 将 其 作为 新 的 聚 
类 中 心 IH。 重 复 上 述 过 程 ， 直 到 聚 类 中 心 不 再 改变 。 
定义 1 欧 氏 距离 (Euclidean distance) 是 欧 氏 空间 中 两 点 之 
间 的 直线 距离 [M1。 样 本 xX, 与 X, 在 m 维 空间 中 的 欧式 距离 为 

Sx WD 


k=1 


d(X.,X;)= 


K-means 算法 根据 欧 
1.2 萤火虫 算法 
该 算法 模拟 董 火 虫 的 移动 过 程 ， 根 据 各 萤火虫 的 位 置 和 奖 
光亮 度 赋予 其 目标 函数 值 并 计算 相对 吸引 度 。 菊 光 较 强 的 个 体 
吸引 荧光 较 弱 的 个 体 按照 位 置 更 新 公式 向 其 移动 ， 移 动 距离 由 
吸引 度 的 大 小 决定 。 优 化 过 程 基于 以 下 三 个 原则 ; 
a) 萤火虫 的 性 别 因 素 忽 略 , 任何 两 只 萤火虫 个 体 均 可 以 互 
相 吸 引 。 
b) 莉 火 虫 个 体 的 吸引 度 与 距离 成 反比 ,与 亮度 成 正比 , 亮 


次 式 距 离 确定 样本 的 相似 程度 。 


度 强 的 莉 火 虫 吸 引 亮度 弱 的 董 火 虫 向 其 移动 ， 亮 度 最 强 的 个 体 
随机 移动 ，。 
c) 萤火虫 个 体 的 亮度 由 其 所 在 位 置 的 目标 函数 值 决定 。 
Tx-f(x),l<i<n (2) 
T=Jexp(-y*n,) G) 


其 中 I 表示 区 光亮 度 ，f (x) 表示 目标 函数 ，x 为 莉 火 虫 i 的 空 
间 位 置 ; 7 表示 最 大 区 光亮 度 ; y 为 常量 , 表示 光 强 吸收 因子 ; 
;表示 x 与 xj 之 间 的 欧式 距离 。 

定义 3 吸引 度 为 


B=Pexp(—7*7) (4) 
其 中 ， 为 最 大 吸引 度 。 


据 集 进行 较为 精确 的 划分 ， 进 而 提高 算法 的 收敛 速度 ， 实 现 对 
K-means 算法 的 优化 。 但 是 基于 萤火虫 优化 的 K-means 算法 存 
在 以 下 缺陷 : 
a) 聚 类 中 心 数值 K 的 选取 尚 没有 指定 算法 , 若 选取 的 玉 值 
不 合理 ， 会 严重 影响 聚 类 精度 和 计算 复杂 度 。 
b) 最 佳 聚 类 结果 对 应 于 目标 函数 的 极 值 点 ， 聚 类 中 心 落 在 
某 个 局 部 极 小 点 附近 ， 易 导致 算法 陷入 局 部 最 优 09。 
在 利用 萤火虫 个 体 的 相互 吸引 模拟 K-means 聚 类 过 程 ， 提 
高 全 局 搜索 收敛 速度 的 基础 上 ， 针 对 现 有 算法 在 全 局 寻 优 搜索 
中 易 陷入 局 部 极 值 区 域 的 缺陷 ， 本 文 根 据 混沌 映射 对 初 值 具有 
敏感 性 和 遍历 性 的 特点 [时 ,提出 一 种 基于 混沌 理论 的 动态 种 群 
萤火虫 算法 (简称 FCMM 算法 )， 对 K-means 聚 类 进行 改进 。 
2.1 最 大 最 小 距离 算法 确定 聚 类 中 心 数 值 K 

最 大 最 小 距离 (Max-Min distance) 聚 类 算法 ， 本 文 简称 MM 
算法 ,MM 算法 与 传统 K-means 相似 , 都 是 通过 计算 欧 氏 距离 ， 
根据 最 近邻 原则 划分 归属 于 各 聚 类 中 心 的 样本 点 。 不 同 之 处 在 
于 ，MM 算法 并 不 是 直接 给 定 聚 类 类 别 数 值 K， 而 是 从 样本 点 
中 任 选 一 个 对 象 X， 作 为 第 一 个 聚 类 中 心 , 通过 式 (1) 计 算 各 点 
到 X 的 欧式 距离 ， 将 距离 Xx, 最 远 的 点 作为 新 的 聚 类 中 心 。 习 


mn 


复 以 上 划分 步骤 ， 直 到 不 再 产生 新 的 聚 类 中 心 ， 最 后 确定 聚 类 
中 心 总 数 开 。 
算法 步骤 如 下 : 


a) 给 定 00<O<1, 选 取 初 始 聚 类 中 心 Z =x。 
b) 产 生 新 的 聚 类 中 心 

通过 计算 各 点 到 Z, 的 欧 氏 距离 Dp, ,选取 D, = 
应 的 x 为 下 一 个 聚 类 中 心 Z, ; 

计算 各 点 到 聚 类 中 心 Z|/ 和 Zz, 的 距离 Di,D。 ， 若 
D,)},i=1,2,..n, 并且 D, >0*D,,， 则 取 x 为 


max{D,} 对 


D, = max{min(D, 


二 个 聚 类 中 心 世 


a 
D, 4||x -ZE | N22 |,D,, |x -2,| 
I 


注 : Di, 表示 Z 和 ZZ, 之 间 的 距离 

若 Z, 存在 ， 判 断 是 否 有 D,=max{min(D,,D,,D;)}, 
i=1,2,...n, 若 满 足以 上 条 件 并 且 D, > 9* DD,,, 则 确定 第 四 个 聚 类 
中 心 。 依 次 类 推 ， 如果 出 现 Dp, < 9* D,,， 停 止 寻找 新 的 聚 类 中 
心 。 

9 统计 聚 类 中 心 总 数 开 。 

该 算法 的 聚 类 结果 与 参数 和 起 始点 的 选取 关系 重大 。 为 得 
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到 良好 的 聚 类 效果 ， 在 无 9 
反复 实验 , 故此 算法 在 本 文 仅 ) 
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E 验 样本 分 布 知 识 的 情况 下 需要 进行 


2.2 混沌 理论 优化 聚 类 中 心 
为 避免 基于 萤 火 

个 局 部 极 小 点 附近 

最 优 解 ， 


时， 


本 文 引入 具有 随机 性 、 遍 历 性 、 
对 基于 萤 火 


EE 算法 的 K-means 杜 


于 Logistic 混 注 
显 的 遍历 不 均匀 的 问题 ， 


映射 在 0,1 六 


说 的 


理 证 明 ， 


验证 


化 [ 
于 logistic 


2.2.1 Tent 混沌 序列 
Tent 映射 表达 式 为 


规律 性 特 人 


案 类 进行 优化 处 理 。 


于 确定 聚 类 中 心 数值 K 的 大 小 。 


EH 优 化 的 K-means 算法 的 聚 类 中 心 落 在 某 
， 改 善 算法 的 全 局 搜索 能 力 ， 尽 快 跳出 局 部 
正 的 混沌 变 


边界 范围 分 布 集中 ， 存 在 明 


导致 算法 效率 较 低 。 单 粱 09 等 通过 严 


了 Tent 映射 产生 的 混沌 序列 更 有 助 于 算法 
3 , 并 指出 Tent 映射 的 收敛 速度 和 遍历 均匀 性 等 性 能 相 较 
映射 更 优 。 


Tent 映射 Te 


=(2x, )mod1l 


| 


Tent 混沌 序列 的 产生 步骤 如 下 : 


a) 随 机 产生 一 个 不 在 (0.20,0.40,0.60,0.80) 范围 内 的 初 值 x ， 


记 作 z,z(1) = 二 六 二 


b) 按 式 (7) 进 行 迭 代 ， 产 生 序列 x。 


(6) 


(7) 


c) 如 果 x(i)=[0,0.25,0.5,0.75] 或 xD=xG 一 月， 
大 = [0,12,3,4] ,执行 步 又 b)。 

d) 按 式 xD) = zCj+D 改变 迭代 初 值 ，j=ji+1， 执 行 步骤 2。 

6 如 果 达 到 最 大 迭代 次 数 , 终止 运行 , 保存 产生 的 x 序列。 
2.2.2 混沌 搜索 

本 文 提 出 的 FCMM 算法 以 当前 搜索 到 的 局 部 最 优 解 为 基 


得 全 局 最 优 解 。 


具体 方案 如 下 : 将 各 个 聚 类 中 心 C (i=1,2,...k) 与 当前 
中 心 C, 的 距离 Dp, 从 大 到 小 依次 排列 ， 
心 总 数 的 30%) 类 C, ,C，,， 


( 占 聚 类 中 


日 
准点 产生 Tent 混沌 序列 , 通过 Tent 搜索 跳出 局 部 
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Ve =Xy + (Xi — Xi )*(2z0 —1)/2 (8) 


计算 vy 的 荧光 亮度 值 F(v)， 
度 值 F(x) 比较 ， 保 留 最 好 的 解 。 

6) 若 搜索 次 数 达 到 C "”， 停 止 搜索 ; 
2.3 FCMM 算法 基本 步骤 

a) 初 始 化 参数 : 聚 类 对 象 总 数 N, 吸 收 系数 y , 步 长 因子 w ， 
混沌 搜索 的 最 大 友 代 次 数 C， ， 最 大 荧光 亮度 1 ， 最 大 吸引 度 
bo 总 

b) 通 过 最 大 最 小 距离 算法 确定 聚 类 中 心 数 KK， 记录 最 大 最 
i 台 聚 类 中 心 位 置 。 


并 与 局 部 最 优 解 的 严 光 亮 


否则 ， 转 向 步骤 2。 


9 依次 通过 Tent 映射 构建 以 各 个 聚 类 中 心 为 基准 点 的 混沌 
搜索 空间 。 
dj) 利用 Tent 混沌 搜索 更 新 初始 聚 类 中 心 的 位 置 ， 直 到 聚 类 


中 心 不 再 变化 。 
日 将 聚 类 中 心 对 应 于 目标 萤火虫 赋予 最 高 荧光 亮度 。 计 
复 剩 余 的 样本 点 相对 于 各 聚 类 中 心 的 欧 氏 距离 ， 并 按照 式 (3) 赋 
予 不 同 的 荧光 亮度 。 
如果 1 > 7 ,表示 萤火虫 j 比 i 的 目标 函数 值 小 ， 即 j 比 i 
的 位 置 好 , 萤火虫 j 将 吸引 i 向 它 移动 , 移动 方式 由 式 (4) 决 定 ， 
通过 式 (5) 更 新 萤火虫 位 置 。 
四 重复 步骤 人， 直到 所 


萤火虫 都 被 划分 到 所 属 的 聚 类 中 


h) 输 出 结果 。 
3 ”实验 结果 与 分 析 
3.1 实验 环境 
为 了 验证 算法 的 有 效 性 ， 本 文 进行 了 三 组 实验 。 实 验 一 通 


过 对 比 不 同 算法 的 聚 类 效果 图 ， 验 证 本 文 算法 聚 类 中 心 选取 的 


最 优 , 从 而 获 


有 效 性 ; 实验 二 通过 UCI 数据 集 测试 不 同 聚 类 算法 的 聚 类 精度 
和 收敛 速度 ， 验 证 本 文 算法 收敛 速度 较 快 、 聚 类 精度 有 一 定 提 


站 聚 类 


in 


前 n+l 个 类 中 第 j 


新 的 混沌 搜索 空 


间 。 


维 的 最 大 值 xX/ 
以 C. 的 聚 类 中 


最 小 值 Xi 家 


列 ,进行 混沌 搜 


Tent 混沌 搜索 主 
a) 利 用 2 = (mw 一 和 各)1(CX7 


中 大 =12,,7m 7/ 


索 ,搜索 


本 


二 2 


Xt E[X in, Xmax] 。 


min? 


更 步 又: 


一 XX/ ), 将 和， 


min 


b) 将 上 式 代 入 式 (7) 进 行 Tent 映射 , 迭代 产生 混沌 变 
C 是 混沌 搜索 的 最 大 迭代 次 数 [11]。 


(m=1,2,.., Ci 


x)° 


利用 式 (8) 将 ao 还 


取 距 离 较 小 的 前 画 


到 外 


.CG 与 C.， 并 分 别 求 出 当 
， 共 同 构成 
心 和 .为 基准 点 产生 混沌 序 
结束 得 到 的 最 优 解 作为 新 的 聚 类 


段 设 聚 类 中 心 是 C，X, = {X00, X03).Xg 


Pi 心 。 


映射 到 (0,1), 其 


量 序列 


max 


还 原 到 原 解 空 


间 的 邻 域 内 ， 产 生 新 


] 


名 如 


归 Vo 


高 。 实 验 三 将 本 文 算 法 与 引言 中 介绍 的 基于 自 适 应 步 长 的 莉 火 
虫 划 分 聚 类 算法 〈 以 下 简称 文献 [7] 算 法 ) 和 加 权 的 欧 氏 距离 对 
K-means 改进 算法 (以 下 简称 文献 [9] 算 法 ) 的 聚 类 效果 进行 对 
比分 析 。 实 验 的 运行 环境 为 Windows7 操作 系统 ，4 GB 物理 内 


存 ，CPU 速度 3.10 GHz，matlab2014b 。 
3.2 ”实验 结果 与 分 析 

实验 1 聚 类 效果 对 比 。 随机 选取 200 个 样本 数据 散布 在 
解 空 间 ， 经 过 最 大 最 小 距离 算法 得 到 聚 类 类 别 数 K=4。 鉴 于 萤 
火 虫 算法 的 参数 设 定 对 实验 结果 有 很 大 影响 ， 本 文采 用 水 平实 
验 得 到 最 优 解 出 现 次 数 最 多 的 组 合 ， 对 步 长 因子 c 和光 强 吸收 


系数 y 采用 枚 举 法 得 到 一 系列 最 优 值 组 合 ， 最 后 对 结果 进行 分 
析 得 到 了 FA 算法 的 参数 取 值 情况 。 经 30 组 实验 结果 分 析 对 
比 ,参数 设置 如 下 都 会 取得 比较 好 的 效果 : 最 大 吸引 度 所 =100， 
吸收 系数 y=1， 步 长 因子 a =0.06， 最 大 返 代 次 数 C，. =50， 最 
大 荧光 亮度 J=100，0=0.4。 测 试 结 果 如 图 1 所 示 。 
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优先 出 版 杨 明 极 ， 等 : 
图 1 可 以 看 出 ,传统 K-means 算法 的 部 分 聚 类 中 心 分 布 


较为 集中 , 明显 存在 局 部 最 优 问题 ; FA 算法 获得 的 聚 类 中 心 分 
布 均 匀 性 稍 有 改善 ， 但 聚 类 效果 仍 有 待 提 高 ; 本 文 算法 相 较 于 
K-means 和 FA 算法 , 聚 类 中 心 分 布 更 均匀 , 明显 改善 了 易 陷 入 
局 部 最 优 的 问题 ， 聚 类 效果 更 佳 。 


一 种 改进 K-means 聚 类 的 FCMM 算法 


实验 2 ”选用 标准 
为 了 验证 本 文 算法 的 有 效 性 ， 
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数据 集 进 行 仿真 ， 参 数 设置 同 实验 一 。 
K-means、FA 算法 与 FCMM 算法 


分 别 在 6 种 不 同 的 数据 集 上 进行 独立 实验 ， 不 同 算法 的 平均 聚 


类 精度 如 表 1 所 收敛 曲线 如 图 


2 


所 示 。 


2 2r 
1 1 
0 or 
-1 sp 
-2 

-2 上 ， 

二 5] 0 1 3 3 可 1 2 3 .2 -1 

(a) 经 典 K-means 算法 的 聚 类 结果 (b) FA 算法 的 聚 类 结果 
图 1 不 同 算法 的 聚 类 效果 对 比 图 
Wine 数 据 集 
Seed 数 据 集 


2 
(c) 本 文 FCMM 算法 的 聚 类 结 曙 


0 1 


7 也 


New-thyroid 数 据 集 


目标 函数 ef 


Hayes-Roth 数 据 集 


一 一 K-means 
一 一 FA 算法 
一 一 本 文 算法 


40 50 


20 30 
选 代 次 数 


Iris 数据 集 


一 一 K-means 


40 50 


20 30 
选 代 次 数 


Glass 数据 集 


图 2 三 种 算法 在 6 种 数 
表 1 算法 的 平均 聚 类 精度 (%) 

数据 集 K-means FA 算法 本 文 算法 
Iris 87.93 91.13 92.16 
Wine 56.85 70.23 72.15 
Seed 86.97 88.07 90.46 
Glass 54.05 57.18 63.12 
Hayes-Roth 77.32 81.06 82.35 
New-thyroid 72.34 79.63 80.28 


表 1 可 以 看 出 ， 本 文 算法 首先 通过 最 大 最 小 距离 算法 确 
定 聚 类 中 心 数 值 K 并 引入 混沌 理论 对 聚 类 中 心 进行 优化 后 , 平 


FF 经典 


均 聚 类 精度 相 较 了 


7.51% 和 2.2%。 由 图 
前 提 下 ， 相 比 于 经 


” 


2 看 出 ， 
K-means 和 FA 算法 有 较 快 的 收敛 速度 。 
实验 3 不 同 算法 


K-means 算法 和 


上 FA 算法 分 别提 高 了 


本 文 算法 在 保证 较 高 聚 类 精 


度 的 


聚 类 效果 对 比分 析 。 


该 实验 将 本 文 算法 


与 引言 中 的 基于 萤火虫 优化 的 K-means 算法 在 聚 类 准确 率 和 处 


虽 集 上 的 收敛 


ee 
党 


里 时 间 等 方面 进行 对 比分 析 。 


由 表 2 可知， 相对 于 文献 [7] 与 文献 [9] 的 算法 ， 本 文 算法 


于 采用 


了 最 大 最 小 距离 算法 进行 初 


台 聚 类 中 心 数 值 的 分 析 ， 时 


间 复 杂 度 相对 较 高 ， 处 理 时 间 略 长 ， 但 是 聚 类 精度 明显 较 高 。 


4 ”结束 语 
本 文 针 对 KK-means 算法 易 受 初始 聚 类 中 心 影响 而 陷入 局 部 


最 优 的 问题 , 提出 了 新 的 FCMM 聚 类 算法 , 分 别 在 初 


台 聚 类 中 


心 的 个 数 和 聚 类 中 心 的 位 置 分 布 两 个 方 
了 改进 。 本 文 提出 的 确定 聚 类 中 心 数值 的 方式 ， 可 以 有 效 降 
低 算 法 受 初 始 聚 类 中 心 个 数 的 影响 。 同 
K-means 聚 类 算法 的 基础 上 ， 提 出 了 通过 混沌 搜索 的 方式 更 新 


聚 类 中 心 位 置 的 方法 ， 由 于 混沌 
结果 的 影响 ， 同 时 充分 利用 了 萤 


度 ， 成 功 解决 了 聚 类 过 程 易 陷 
问 


沼 
. 


入 


而 对 天 -means 算法 进行 


时 ， 在 基于 萤火虫 优化 


决 射 可 以 降低 初始 聚 类 位 置 对 
火 虫 算法 的 寻 优 能 力 和 收敛 速 
局 部 最 优 解 和 收敛 速度 过 慢 的 
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优先 出 版 杨 明 极 ， 等 : 一 种 改进 -means 聚 类 的 FCMM 算法 
表 2 不 同 算法 的 仿真 结果 比较 
算法 本 文 算法 文献 [7] 算 法 文献 [9] 算 法 
数据 集 Glass Hayes-Roth Wine Glass Hayes-Roth Wine Glass Hayes-Roth Wine 
聚 类 精度 /% 63.12 82.35 72.15 62.45 81.28 70.71 60.70 81.46 70.43 
处 理 时 间 /s 19.425 11.432 15.725 17.532 10.734 13.832 18.345 11.243 14.432 
算法 本 文 算法 文献 [7] 算 法 文献 [9] 算 法 
数据 集 Iris New-thyroid Seed New-thyroid Seed Iris New-thyroid Seed 
聚 类 精度 /% 92.16 80.28 90.46 91.22 79.01 89.52 91.49 79.98 89.70 
处 理 时 间 /s 10.003 12.709 10.782 9.234 10.232 8.342 8.342 11.344 9.232 
5] 张强 , 王 红 卫 , 陈 游 , 等 . 基于 自 适 应 权重 的 RFCM 聚 类 算法 [J]. 微 


经 过 验证 不 同 算法 聚 类 效果 的 对 比 和 UCI 数 据 集聚 类 结果 
中 


的 分 析 ， 验 证 了 本 文 算 法 在 对 少量 数据 进行 聚 类 分 析 的 过 程 
具有 收敛 速度 快 ， 聚 类 精度 高 ， 不 易 陷 入 局 部 最 优 问题 。 但 是 


使 


下 
三 


1 司 ] 


j 本 文 提出 的 算法 处 理 较 大 数据 集 时 ， 会 产生 时 间 复 杂 度 较 


的 问题 ， 所 以 需要 研究 如 何 更 好 的 使 用 相似 性 准则 去 掉 聚 类 


中 心 候 选集 ， 这 也 是 本 文 算法 今后 的 改进 和 研究 方向 。 
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